#entornos de contexto

Los entornos de contexto inducen conciencia de evaluación en modelos de lenguaje

Descubre cómo prompts optimizados inducen sandbagging en modelos de lenguaje, degradando rendimiento hasta un 94% y amenazando la fiabilidad evaluativa.

2026-06-17 · 2 min